[Day 4] Fine-grained Late-interaction Multi-modal Retrieval (FLMR) - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2024 iThome 鐵人賽

DAY 4

0

AI/ ML & Data

30 Days of AI Research系列第 4 篇

[Day 4] Fine-grained Late-interaction Multi-modal Retrieval (FLMR)

16th鐵人賽 deep learning paper information retrieval vlm

2024-08-04 20:49:43

233 瀏覽

分享至

Paper link | Note link | Code link | NeurIPS 2023

Paper title: Fine-grained Late-interaction Multi-modal Retrieval for Retrieval Augmented Visual Question Answering

整體想法

這項研究針對知識基礎視覺問答中的兩個主要限制進行探討：

從影像到文本轉換衍生的影像表示可能不完整且不準確。
僅依賴一維嵌入來計算相關性分數缺乏敏感度。

摘要

知識基礎視覺問答（KB-VQA）的任務利用外部知識來回答基於視覺內容的問題。

一種被稱為檢索增強視覺問答（RA-VQA）的框架能有效地解決這一任務。

本研究旨在解決 RA-VQA retriever 中的兩個限制：

通過影像到文本轉換獲得的影像表示可能不完整且不準確。
僅使用一維嵌入來計算相關性分數缺乏敏感度。

背景

知識基礎視覺問答（KB-VQA）旨在讀取影像並回答與影像內容相關的問題。

如何才能正確回答問題？

這取決於能夠檢索相關資訊並根據檢索到的知識生成答案的能力。

一種名為檢索增強視覺問答（RA-VQA）的框架專門為此任務而設計。

整體 RA-VQA 的運行過程：

從外部知識中檢索與影像和問題相關的篇文件。
使用大型語言模型（LLM）根據這些相關段落生成答案。

相關研究： RA-VQA

一個共同訓練的知識檢索和答案生成框架：

使用視覺算法將視覺資訊轉換為語言。
Retriever 從知識庫中檢索文檔。
使用 RA-VQA 損失函數訓練 retriever 和 generator 。
模型將選擇具有最高聯合概率的答案。

方法

這項研究討論了 RA-VQA retriever 中的兩個主要限制：

通過影像到文本轉換對影像表示的理解不完全。
僅使用單一嵌入來計算查詢和文檔之間的相關性分數可能會導致資訊丟失。

本研究提出了一種名為 細粒度後互動多模態檢索（FLMR） 的方法來解決這兩個限制：

為了更好地理解影像表示，本研究使用大型視覺模型通過影像到文本轉換來對齊影像表示。
本研究不再使用單一嵌入，而是使用多維表示來以細粒度方式捕捉相關性分數。

Knowledge retrieval

這個框架包含兩個 encoder：視覺模型和語言模型。

Visual feature

本研究使用兩種類型的視覺特徵：

基於文本的視覺標題。
來自大型視覺模型的特徵表示。

對於第二種特徵來源，本研究使用 VinVL 來定位（Region-of-Interest）邊界框。

通過視覺模型，他們從影像中獲得一個全局影像潛在特徵。

此外，他們還獲得基於 ROI 的潛在特徵。

Token-Level Embeddings

使用多維嵌入來提高檢索效果。

來自文本和視覺數據的 token-level 嵌入被串接以增強性能。

為了對齊不同模態的特徵，他們訓練了一個映射網路。它學習將來自的視覺特徵投影到語言模型的潛在空間中。

最終的查詢嵌入為：

其中，是問題的長度。

Multi-Modal Late Interaction

本研究計算 question-image pair 和文檔之間的相關性分數：

其中是來自知識庫的嵌入，是文檔的長度。

Answer generator

在本研究中，answer generator 具有參數，將根據檢索和答案生成的聯合概率從最佳候選中生成答案。

其中是 , 和的模型參數。

Training loss

對於 retriever，本研究使用對比損失：

其中被認為是對於的負例。

對於 answer generator，他們使用交叉熵損失來評估生成的序列：

其中是整個數據集，是人類回答的集合，而是在文檔中最常出現的字符串。

實驗

Backbone model：

: CLIP ViT-base
: ColBERTv2
: 2層多層感知器
: T5-large / BLIP2-Flan-T5-XL

以下是模型在視覺問答數據集 OK-VQA 上的性能：

在 GoogleSearch(GS) 和維基百科上的檢索性能：

比較一些模型變體的案例研究：

[Day 3] Retrieval-Augmented Multimodal Language Modeling

[Day 5] Recommender Systems with Generative Retrieval

系列文

30 Days of AI Research 共 31 篇

目錄

RSS系列文訂閱系列文

9 人訂閱

完整目錄

直播研討會

{{ item.subject }}

{{ item.channelVendor }} {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22077 篇

完賽人數

594 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙